• 2021 - 2022
  • Traitement Automatique des Langues

Structure du corpus

Les données textuelles interprétables sont stockés au milieu des balises nommées respectivement title et description, ce qui nous permet de les extraire en ciblant les parties correspondantes.

Ainsi, nous allons utiliser les expressions régulières pour localiser les contenus utiles.

L'image ci-dessous montre comment les informations sont structurées dans un fichier xml.

Script Perl
téléchargement
Résultats

Nous avons ainsi obtenu deux types de sortie, l'un est au format txt, l'autre en xml. Dans le script, nous avons utilisé la commande

      open my $output_xml, ">:encoding(UTF-8)","./results/perl-bao1-$RUBRIQUE-corpus-titre-description.xml"
    
pour distinguer le résultat de la BàO1 et celui de la BàO2.

Sortie txt Sortie xml
téléchargement téléchargement

Script Python

script icon
Résultats

Comme sous Perl, nous y avons aussi obtenu deux types de sortie, Dans le script, nous avons utilisé la commande

      output_txt=open(dir+'results'+f'py-{rubrique}-corpus-titre-description.txt', 'w', encoding='utf-8')
    
pour distinguer le résultat de la BàO1 et celui de la BàO2.

Sortie txt
script icon
Sortie xml
script icon